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摘 要 : [ 目的/ 意义] 梳理 和 总 结 基于 机 器 学 习 的 自动 术语 抽取 的 相关 研究 ,为 领域 相关 人 员 提 供 参 考 。 [ 方法 /过 程 ] 在 
CNKI 和 EndNote 的 分 析 工 具 基 础 上 ,应 用 文献 计量 对 主题 的 年 度 趋 势 和 核心 机 构 进行 宏观 分 析 , 然 后 从 抽取 技术 
方法 数据 集 和 评价 以 及 应 用 3 个 方面 进行 主题 内 容 分 析 。| 结果 /结论 ] 近 些 年 ,术语 抽取 研究 取得 了 很 大 的 进 
步 , 是 知识 系统 、 自 然 语言 处 理 、 情 报 分 析 等 领域 的 基础 工作 。 随 着 自然 语言 处 理 领 域 的 迅猛 发 展 ,抽取 技术 开始 
朝 着 深度 学 习 方 向 发 展 ,但 术语 抽取 的 基础 理论 体系 还 有 待 完善 ,如 评价 指标 、 语 料 选取 和 效果 评价 方法 。 


杀 键 词 : 术语 抽取 ”机 器 学 习 知识 组 织 
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SIA 
随 着 语义 网 的 发 展 ,知识 内 容 变 革 的 范围 逐渐 扩 
二 步伐 不 断 加 快 ,知识 载体 的 多 渠道 .多 格式 关联 数 
据 往 等 异 构 现象 已 成 为 常态 ,用 户 群 体 更 加 渴望 对 知 
识 内 容 的 有 效 获取 。 语 义 网 以 知识 组 织 为 基础 ,试图 
实现 知识 之 间 的 语义 互联 互通 。 其 中 ,分 类 法 .知识 本 
优 汀 知识 图 谱 等 知识 密集 型 组 织 系 统 在 语义 网 中 扮演 
着 妃 要 的 角色 ,能 够 揭示 知识 单元 之 间 的 内 涵 语义 , 挖 
据闻 识 外 延 关联 ,实现 数据 知识 化 .知识 有 序 化 以 及 知 
识 服 务 化 ,最 终 让 知识 得 到 有 效 利用 、 传 播 . 共 享 和 增 
值 。 

术语 是 特定 专业 领域 中 概念 的 语言 指称 "] 。 知 识 
密集 型 系统 需要 大 量 准确 规范 的 术语 来 实现 知识 的 
表达 , 挖 气 和 可 视 化 ,是 解决 “信息 和 知识 孤岛 问题 ” 


tani 


描述 领域 核心 术语 变 成 了 一 项 劳动 密集 型 任务 ,因此 
自动 术语 抽取 (automatic term extraction, ATE) 成 为 了 
领域 术语 自动 获取 研究 的 首要 任务 和 基础 工作 。 
自动 术语 抽取 仍然 是 一 个 尚未 解决 的 问题 ” ,多 
年 来 学 者 们 已 经 开发 出 了 新 的 方法 以 满足 工业 政府 
档案 馆 和 数字 图 书馆 对 不 断 增 长 的 专业 文档 自动 归 类 
标 引 的 需求 。 这 些 方 法 通常 结合 了 语言 规则 和 统计 信 
息 , 先 利用 语言 处 理 器 来 提取 候选 术语 (例如 名 词 、 名 
词 短语 或 n-gram) ,然后 应 用 统计 方法 通过 局 部 和 全 局 
收集 的 特征 对 候选 者 评分 ,最 后 对 评分 后 的 候选 词 进 
行 排名 ,以 供 后 续 选 择 和 筛选 。 现 有 方法 已 取得 不 错 
的 抽取 效果 ,但 还 存在 两 个 局 限 : 中 众所周知 ,不 可 能 
针对 任何 领域 开发 一 种 不 切实 际 的 "一刀切 ”方法 。 
研究 ”表明 根据 领域 和 数据 集 的 不 同 ,性 能 最 佳 的 
ATE 方法 总 是 会 发 生变 化 ,并 且 不 同方 法 获得 的 精度 


的 最 佳 方法 。 术 语 抽取 (或 术语 识别 ) 是 从 特殊 领域 
文本 中 获得 表示 领域 概念 术语 的 过 程 ,传统 的 术语 抽 
取 主 要 依赖 专家 知识 来 手工 制定 规则 以 进行 术语 的 识 
别 与 抽取 ,存在 规则 维护 扩展 困难 应 用 范围 有 限 .可 
移植 性 差 等 问题 。 在 大 数据 时 代 ,可 获取 的 领域 文本 、 
词汇 和 概念 等 不 断 增长 ,手动 构建 、 维 护 修 订 ` 索 引 和 


可 能 会 显著 不 同 。 凶 目前 最 先进 的 技术 通常 利用 词 频 
之 类 的 统计 特征 来 对 候选 词 进行 评分 ,忽略 了 语义 相 
关 性 的 作用 。 

近 些 年 ,机 融 学 习 在 术语 抽取 领域 快速 发 展 , 学 术 
价值 和 应 用 前 景 不 断 被 探索 和 挖掘 ,从 理论 UBER LR 
法 到 实际 应 用 都 涌现 出 了 很 多 优秀 成 果 。 通 过 自动 学 
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习 特 征 和 截止 点 的 最 佳 组 合 , 机 器 学 习 能 够 有 效 地 组 
合 特征 ,具有 广泛 的 适用 性 。 面 对 领域 数据 的 与 日 俱 
增 和 复杂 多 样 , 作 为 机 器 学 习 分 支 的 深度 学 习 可 能 会 
是 更 适合 的 选择 。 术 语 抽取 是 一 项 复杂 而 困难 的 工 
作 , 机 器 学 习 算法 的 融入 进一步 提升 了 术语 抽取 效果 
和 质量 ,但 通用 性 以 及 效果 还 有 上 升 空 间 。 基 于 术语 
抽取 与 机 絮 学 习 的 联系 ,本 文 将 对 该 领域 术语 抽取 方 
面 的 研究 进展 、 应 用 情况 等 进行 统计 计量 分 析 , 为 本 领 
域 相关 人 员 提 供 参 考 。 


2 相关 文献 定量 分 析 


自动 术语 抽取 研究 已 经 有 20 多 年 的 历程 , 早 在 20 
世纪 90 年 代 , 国 外 就 研究 出 了 一 批 具 有 可 操作 性 的 术 
语 抽 取 系统 ,如 FASTER 系统 以 及 Terms 系统 等 ”, 服 


级 与 应 用 等 方面 。 中 文 术语 抽取 研究 起 步 较 晚 ,主要 
是 三 国外 研究 基础 上 ,结合 汉语 特点 实现 对 已 有 方法 
的 要 进 。 目 前 ,国内 外 有 很 多 术语 服务 平台 和 工具 ,如 
中 国 科学 技术 信息 研究 所 的 《汉语 主题 词 表 》 服 务 系 
国 科 学 技术 名 词 审定 委员 会 的 术语 知识 服务 平 
rmonline , 中国 知 网 的 知识 元 检索 .OCLC 术语 服 
5a 及 Sketch Engine 等 。 

个 | 文献 信息 资源 日 益 增长 ,为 了 更 加 全 面 地 获取 与 
术语 抽取 研究 相关 的 文献 ,本 文 以 CNKI 和 维普 为 主 
驱 隆 中 文 检索 平台 ,选取 “术语 抽取 .术语 识别 .术语 获 
取 久 为 一 级 主题 词 进行 主题 检索 ,然后 在 检索 结果 中 以 
“机组 学 习 、 深 度 学 习 、 神 经 网 络 、 监 督学 习 、 半 监督 学 
JORE REBELA EI H ENL RAR 
马尔 可 夫 模型 "为 检索 词 进行 二 次 检索 ,分 别 得 到 290 
篇 和 126 篇 文献 。 再 根据 文献 题目 .摘要 以 及 关键 词 ， 
筛选 并 去 重 后 得 到 96 篇 相关 文献 。 对 于 外 文 文献 ,使 
用 Web of Science 核心 合集 数据 库 的 高 级 检索 功能 , 结 
合 主 题词 构造 如 下 检索 式 :“TS = ("term extraction" or 


« OTOES « : Dom « . 
term recognition” or “terminology extraction” or “ termi- 


M 


nology recognition" or "term identification" or "terminol- 
ogy identification" ) and ALL = ("machine learning" or 
" deep learning" or "neural network" or " conditional ran- 
dom fields" of "Support Vector Machine" or "supervised 
learning” or “unsupervised learning" or "Maximum En- 
tropy” or “Hidden Markov Model”)”。 在 检索 得 到 的 79 
篇 文献 中 ,筛选 后 得 到 相关 文献 73 篇 。 

考虑 到 数据 的 可 获得 性 和 研究 成 果 的 质量 ,本 文 
合并 收集 到 的 国内 外 文献 ,采用 文献 计量 和 内 容 分 析 


法 对 研究 问题 进行 分 析 和 论述 。 首 先 利 用 CNKI 的 数 
据 分 析 功 能 以 及 EndNote 的 Subject Bibliography 分 析 
功能 来 获取 文献 的 相关 统计 数据 ;然后 用 Excel 对 总 的 
169 篇 文献 进行 年 度 趋 势 分 析 和 核心 研究 机 构 分 析 ， 
达到 对 相关 人 研究 的 宏观 认识 ;之 后 深入 到 文献 的 内 容 ， 
结合 统计 数据 ,从 抽取 技术 数据 集 和 评价 以 及 应 用 方 
面 对 基 于 机 器 学 习 的 术语 抽取 研究 进行 主题 内 容 分 
析 。 
2.1 年 度 趋势 分 析 

图 1 展示 了 各 年 度 的 发 文 情况 ,揭示 了 该 研究 的 
各 个 发 展 阶 段 。 从 文献 发 表 时 间 来 看 ,基于 机 器 学 习 
的 术语 抽取 研究 大 约 始 于 20 世纪 90 年 代 ,P. Marshall 
等 "UE 发 表 了 会 议论 文 Working towards connectionist 
modeling of term formation ,研究 是 对 术语 识别 的 连接 主 
义 “ 方 法 研究 的 延续 ,提出 了 一 种 利用 竞争 性 网 络 技 
术 ( 启 家 通 吃 算法 ,winner-take-all) 来 进行 自动 术语 识 
别 的 方法 。 中 文 研究 中 , 陈 文 亮 等 ”于 2003 年 应 用 
Bootstrapping 的 机 器 学 习 算法 ,从 大 规模 无 标注 真实 语 
料 中 自动 抽取 领域 词汇 。 基 于 机 器 学 习 的 术语 抽取 研 
究 从 2007 年 开始 进入 上 升 期 ,随后 在 2009 到 2013 年 
之 间 进 入 了 一 个 稳定 期 ,平均 年 发 文 量 约 10 篇 ,这 一 
时 期 ,条 件 随机 场 .支持 向 量 机 、 领 域 本 体 .专利 分 析 等 
已 经 开始 成 为 了 术语 抽取 研究 的 关键 词 。 在 2012 年 
左右 ,深度 学 习 和 大 数据 都 进入 到 了 快速 发 展 阶段 , 推 
动 了 命名 实体 识别 .关键 词 抽取 、 关 系 抽取 等 信息 抽取 
研究 的 发 展 。 作 为 信息 抽取 研究 方向 之 一 的 术语 抽取 
研究 也 受到 影响 ,从 2014 年 开始 进入 到 了 男 一 个 上 升 
期 。 近 三 年 发 表 的 文献 主要 探索 神经 网 络 或 深度 学 习 
在 术语 抽取 研究 中 的 应 用 ,这 在 一 定 程度 上 印证 了 
1 中 的 上 升 趋势 。 
2.2. 核心 研究 机 构 分 析 

研究 机 构 是 进行 一 项 或 多 项 学 科研 究 的 专门 性 组 
织 , 研 究 机 构 的 计量 分 析 可 以 揭示 该 研究 方向 的 机 构 
分 布 ,辅助 研究 者 找到 学 术 跟 足 信 息 源 。 通 过 对 中 英 
文 169 篇 文献 的 机 构 进 行 统计 和 去 重 ,图 2 列 出 了 发 
文 量 大 于 3 篇 的 14 个 主要 机 构 ( 不 排除 合 著 的 情况 ) 。 
沈阳 航空 工业 学 院 是 沈阳 航空 航天 大 学 的 旧称 ,统一 
为 沈阳 航空 航天 大 学 ,发 文 量 最 高 ,为 12 篇 文献 ;其 次 
为 南京 大 学 ,发 表 了 10 篇 。 发 文 量 最 高 的 国外 机 构 是 
曼彻斯特 大 学 (Univiersity of Manchester ) ,也 是 唯一 一 
个 发 文 量 大 于 3 的 国外 机 构 。 通 过 对 国外 相关 研究 的 
调研 发 现 ,国外 术语 抽取 研究 更 多 集中 在 应 用 方面 , 构 
入 到 了 本 体 、 知 识 图 谱 、 知 识 系统 、 自 然 语 言 处 理 等 领 
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域 的 研究 中 。 相 比较 而 言 ,国内 机 构 发 文 主题 较为 单 
一 Ss 集 中 。 中 文 术语 抽取 的 研究 更 关注 如 何 提高 已 有 


部 文章 总 数 的 42% ,与 其 他 研究 单位 相 比 ,图 2 中 所 示 
机 构 有 着 较 明显 的 优势 ,尤其 是 沈阳 航空 航天 大 学 和 


法 在 中 文 上 的 表现 ,集中 在 医学 和 专利 领域 , 较 
少年 展 在 不 同 领域 的 应 用 研究 。 


南京 大 学 ,可 以 作为 相关 研究 者 今后 的 重点 关注 机 构 。 
同时 ,笔者 发 现 这 14 个 机 构 占 整体 比例 非常 小 ,可 见 


通过 统计 可 知 ,14 个 机 构 一 共 发 表 了 70 篇 , 占 全 术语 抽取 领域 还 缺乏 高 产 的 .杰出 的 研究 机 构 。 
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2 ， 机构 发 文 量 分 布 


3 ”主题 分 析 


主题 分 析 能 够 反映 领域 的 研究 水 平和 总 体 状 况 ， 
揭示 领域 的 研究 现状 、 热 点 及 发 展 趋势 。 结 合 上 文 的 
宏观 分 析 结 果 , 笔 者 以 研究 对 象 的 内 容 为 切入 点 ,对 术 
语 抽 取 领 域 相关 论文 的 内 容 进 行 了 主题 分 析 , 主要 从 
以 下 3 个 方面 对 基于 机 器 学 习 的 术语 抽取 研究 进行 杭 
理 : 抽 取 技 术 方 法 ,数据 集 和 评估 以 及 应 用 。 
3.1 抽取 技术 方法 分 析 

传统 的 术语 抽取 方法 有 基于 语言 学 的 方法 、 基 于 
统计 的 方法 、 多 策略 混合 的 方法 。 基 于 语言 学 的 方 
法 ”“ 常 依赖 人 工 进行 浅 层 语法 分 析 或 领域 词典 构建 
规则 进行 术语 抽取 ,依赖 特定 语言 .领域 的 词典 .标注 


数据 、 知 识 库 等 先决 资源 条 件 , 存 在 语言 规则 维护 更 新 
困难 、 可 扩展 性 、 可 移植 性 差 等 问题 ,尤其 对 一 些 未 登 
录 词 识别 较 差 ,准确 率 和 召回 率 低 ,无 法 大 规模 地 应 用 
于 术语 抽取 。 基 于 统计 的 方法 "| 利用 术语 在 领域 
文本 语 料 中 的 分 布 统计 属性 ,将 满足 阔 值 或 条 件 的 字 
符 串 序列 识别 为 领域 术语 ,常用 的 指标 TF-IDF 信息 
炉 .互信 息 、 对 数 似 然 等 ,存在 计算 量 大 、 容 易 遗 漏 低频 
词 .忽略 或 缺乏 上 下 文 语 义 分 析 等 问题 。 不 同 的 方法 
也 可 以 互相 集成 ,结合 多 种 策略 来 提升 抽取 人 性能。 在 
统计 和 语言 方法 的 基础 上 , K. T. Frantzi 4" 提出 C- 
value/NC-value 方法 , 较 早 地 开始 了 对 混合 策略 的 研 
究 , 其 基本 思想 是 先 用 规则 模板 得 到 候选 术语 集 , 然 后 
使 用 统计 特征 来 进行 过 滤 ; 另 外 , 周 浪 等 ”结合 子 串 


96 


ChinaXiv 合 作 期 刊 


印 科 达 ， 马 建 玲 . 机 器 学 习 在 术语 抽取 研究 中 的 文献 计量 分 析 [ J]]. 图 书 情报 工作 ,2020 ,64 (14) :94 - 103. 


归并 .搭配 检验 和 领域 相关 度 计 算 技 术 来 完善 了 中 文 
词组 型 术语 抽取 系统 的 性 能 。 

传统 的 术语 抽取 方法 能 够 在 特定 语 料 上 获得 不 错 
的 表现 ,在 多 源 异 构 数据 和 领域 交叉 的 背景 下 , 却 愈 发 
显得 笨重 。 为 了 突破 上 述 局 限 , 随 着 机 器 学 习 和 自然 
语言 处 理 技术 的 推动 ,之 后 大 多 数 研究 开始 将 命名 实 
体 识别 的 方法 迁移 到 术语 抽取 研究 中 ,主要 采用 半 监 
督 和 监督 方式 混合 的 机 器 学 习 算法 及 其 变 体 等 ,聚焦 
于 从 领域 文本 中 半自动 或 自动 地 获得 领域 依赖 的 属 
性 专门 的 文本 特征 .上 下 文 语义 信息 等 ,以 解决 上 述 
[Rit 。 

为 了 分 析 机 器 学 习 在 自动 术语 抽取 中 的 技术 方 
法 ,本 文 统计 了 相关 文献 的 关键 词 。 关 键 词 是 论文 研 
帘 内 容 的 高 度 提炼, 笔者 主要 进行 了 同义词 合并 ,如 
“ERF” 和 “条 件 随机 场 "; 除 去 一 些 无 着 于 主题 研究 的 
高 映 关键 词 ,如 “领域 术语 “分 词 “ 研 究 方法 " ;去 除 
线 筑 过 粗 的 主题 词 ,如 "术语 抽 取 ”“ 机 器 学 习 "。 表 1 
RIDT 169 篇 文献 中 出 现 频率 大 于 等 于 4 的 中 英文 关 
键 语 。 综 合 中 英文 关键 词 来 看 “条件 随机 场 “ 支 持 
引 寻 机 “神经 网 络 “ 深 度 学 习 "技术 方法 出 现 频率 都 
苍 d 次 以 上 ,其 中 条 件 随机 场 总 共 出 现 53 次 “深度 学 
Er 23 次 ,是 近 些 年 应 用 较 多 的 术语 抽取 技术 广 
法 & "根据 关键 词 的 分 布 ,笔者 从 抽取 技术 自身 特点 以 
及 必 展 时 间 线 两 个 角度 出 发 ,将 抽取 方法 分 为 统计 机 
器 车 习 方法 和 深度 神经 网 络 方法 。 


THE 


Cc 表 1 高 频 关键 词 
c 中 文 英文 
〇 ”关键 记 词 频 关键 词 词 频 
条 件 随机 场 49 natural language processing 12 
本 体 ( 本体 学 习 ) 19 deep learning 11 
深度 学 习 12 sentiment analysis 7 
术语 关系 抽取 (提取 ) 12 ontology (ontology learning) 7 
神经 网 络 9 information extraction 5 
信息 抽取 8 neural network 5 
专利 术语 8 opinion mining 4 
命名 实体 识别 5 conditional random fields 4 
序列 标注 3 aspect term extraction 4 
自然 语言 处 理 4 text mining 4 
支持 向 量 机 4 
文本 挖掘 4 
3.1.1 统计 机 器 学 习 方 法 


随 着 机 器 学 习 在 自然 语言 处 理 领 域 的 快速 发 展 ， 
术语 抽取 研究 也 逐渐 转向 了 火热 的 机 器 学 习 阵 营 。 基 
于 统计 机 器 学 习 的 术语 抽取 研究 可 以 总 结 为 3 个 方 


向 :模型 选择 方法 改进 和 多 策略 融合 。 

(1) 模 型 选择 。 基 于 机 器 学 习 的 术语 抽取 方法 归 
根 结 底 都 是 分 类 的 方法 ,可 以 分 为 两 种 思路 ,一 种 是 先 
识别 出 术语 的 边界 ,然后 再 进行 分 类 ; 另 一 种 是 转化 为 
序列 标注 问题 。 

分 类 模型 是 监督 学 习 中 一 个 典型 的 统计 学 习 模 
型 ,主要 是 从 已 标注 的 训练 数据 中 学 习 分 类 模型 的 权 
值 .参数 ,用 以 预测 新 样本 的 类 别 。P. Lopez 等 ”为 了 
抽取 科技 文档 中 的 术语 ,比较 分 析 了 多 种 分 类 方法 : 决 
策 树 .支持 向 量 机 和 多 层 感知 机 ; 赵 欣 "利用 大 量 已 
有 的 术语 ,借助 最 大 炉 模型 训练 了 术语 分 类 玫 ;M. 
Shirakawa 等 ”提出 了 一 种 扩展 的 朴素 贝 叶 斯 模型 来 
实现 文本 中 关键 术语 的 抽取 ,以 此 实现 对 嗜 杂 短文 本 
的 分 类 ; W. Zeng 等 使 用 SVM 对 新 能 源 汽 车 领域 的 
专利 和 文献 数据 进行 术语 抽取 ,实验 结果 证 实 了 机 器 
学 习 在 术语 抽取 中 的 有 效 性 。 表 2 总 结 了 已 用 于 术语 
抽取 的 分 类 算法 的 功能 和 特点 ,这 些 算法 还 在 文本 分 
类 ,语音 识别 .图像 理解 等 自然 语言 处 理 领 域 中 取得 了 
巨大 成 功 。 

序列 标注 模型 能 够 解决 自然 语言 中 常见 的 问题 ， 
包括 词性 标注 .命名 实体 识别 .词义 角色 标注 等 。 不 同 
于 一 般 的 分 类 模型 ,序列 标注 模型 将 文本 看 作 一 个 序 
列 ,利用 BIO, BIEO , BMEO 等 标注 方法 进行 术语 的 识 
别 ,是 目前 非常 有 效 的 方法 。 表 3 介绍 了 在 术语 抽取 
领域 中 常用 的 两 种 序列 标注 模型 , 隐 马 尔 可 夫 模 型 
(hidden markov model , HMM ) 和 条 件 随 机 场 (condition- 
al random field, CRF) , H. S. Pan Ae EI 针对 汉语 词 库 
构建 问题 ,提出 了 利用 隐 有 马尔 可 夫 模 型 从 学 术 文献 中 
提取 新 术语 的 方法 ; 崔 咏 华 等 ” 采用 隐 马 尔 可 夫 模型 
对 计算 机 领域 语 料 进行 学 习 训 练 ,F 值 达 到 了 
89.75% 。 相 较 于 HMM ,CRF 更 具 优 势 ,能 够 避免 标记 
和 置 问题 , 章 成 志 ” 在 条 件 随机 场 的 基础 上 ,提出 了 
一 种 基于 一 体 化 策略 的 术语 抽取 方法 ;D，Zheng 等 
把 术语 的 离散 特征 作为 CRF 模板 的 属性 ,从 单词 本 
Ep .单词 在 组 合 型 术语 中 的 位 置 、 文 本 的 语义 信息 、 信 
ERA TF/IDF 等 多 个 角度 调整 特征 模板 ,在 领域 术语 
识别 任务 中 取得 了 不 错 效果 。 

(2) 方 法 改进 。 机 器 学 习 在 术语 抽取 研究 上 获得 
了 迅速 成 功 ,为 了 设计 出 性 能 更 好 的 术语 抽取 方法 , 研 
究 者 们 对 已 有 模型 进行 改进 ,提高 了 识别 效果 和 计算 
效率 ,如 Q. Zhan 46 7 f Hh D ze A IF BG LES BE TOL 
改进 研究 在 中 文 术语 抽取 研究 中 较为 多 见 , 因 为 经 典 
的 模型 大 多 面向 英文 ,不 能 直接 应 用 于 汉语 ,根据 汉语 
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表 2 基于 分 类 的 算法 


算法 功能 


特点 


决策 树 分 类 与 回归 方法 (CART ID3 , 
C4.5 .随机 森林 等 ) 


朴素 贝 叶 斯 


复杂 度 小 ,速度 快 且 抗 噪 能 力 强 ,可 伸缩 性 好 , 既 可 用 于 小 数据 集 , 也 可 
者 不 需要 了 解 背景 知识 
文本 分 类 ( VSM) 生成 模型 ,原理 简单 ,计算 快 ;但 属性 间 条 件 独立 的 假设 太 严 苛 , 使 得 朴素 贝 叶 斯 的 准确 率 受 到 影响 


于 海量 数据 ;在 学 习 过 程 中 使 


,分 类 原理 简单 易 懂 


最 大 倘 模 型 。 文本 分 类 (分 类 器 ) 
支持 向 量 机 ”经典 分 类 算法 


大 规模 数据 上 训练 


FIER IE ,模型 可 以 应 用 在 不 同 领域 ,可 移植 性 强 , 但 存在 时 空 开 销 大 ,数据 稀 玻 等 问题 
可 以 解决 线性 不 可 分 和 多 分 类 情况 ,计算 复杂 度 仅 取决 于 少量 支持 向 量 ;但 不 支持 类 别 型 数据 ,难以 在 


表 3 基于 序列 标注 的 算法 


算法 功能 特点 
隐 马 尔 可 夫 模 型 ( HMM ) 生成 式 模型 ” 有 向 图 模型 ,算法 成 熟 , 效 果 好 , 且 易 于 训练 ,但 只 考虑 了 当前 状态 和 观察 对 象 ,具有 严格 的 独立 性 假设 
条 件 随机 场 (CRF ) 判别 式 模型 。” 能 够 集成 多 个 特征 ,克服 了 HMM 的 独立 性 假设 ,避免 了 标记 偏 置 问题 ,但 训练 代价 大 ,复杂 度 高 


调整 和 优化 经 典 模型 ,能 够 更 有 效 地 识别 汉语 文本 中 
的 术语 。 
本 统计 机 器 学 习 方法 的 一 个 问题 是 依赖 领域 特定 的 
犊 钵 工程 。 为 了 提高 算法 的 精度 ,需要 作为 基础 的 专 
知识 ( 经验) 和 “运气 ”, 即 人 工 选取 并 获得 最 优 特征 


的 过 程 随机 上 且 不 可 控 ,因而 难以 大 规模 流行 起 来 。 因 
此 :弘一 种 提高 术语 抽取 效果 的 思路 是 选择 更 好 的 特 


外 $ 诸 如 偏旁 部 首 .笔画 等 汉字 层面 的 特征 也 被 用 来 畏 
助演 高 术语 抽取 的 效果 。 与 此 同时 ,各 种 外 部 知识 如 
词 路 .维基 百科 同义词 林 、HowNet .CN-Probase 等 也 可 
以 加 高 识别 性 能 。 
-3 ) 混 合 策略 。 混 合 策略 方法 能 够 有 效 减少 模型 
的 计算 复杂 度 ,并 充分 利用 上 下 文 语义 信息 进行 领域 
文本 分 析 , 在 一 定 程 度 上 提高 了 识别 的 表现 效果 。C. 
Y. Chi 等 ”将 基于 独 热 编码 的 布朗 聚 类 和 隐 马 尔 可 
夫 模 型 结合 起 来 实现 对 未 标记 语料库 的 无 监督 学 习 ; 
另外 , 黄 菌 等 ”提出 了 结合 主动 学 习 的 条 件 随 机 场 模 
型 ,通过 迁 代 的 方式 不 断 提 高 分 类 器 的 效率 ,准确 率 和 
召回 率 可 达 90% 以 上 。 
3.1.2 深度 神经 网 络 方法 

2012 年 以 来 ,深度 神经 网 络 的 激增 和 深度 学 习 的 
发 展 ,在 语音 识别 .图 像 识别 和 计算 机 视觉 等 方面 取得 
了 丰硕 的 成 果 。 尤 其 是 基于 词 向 入 的 语义 表示 方法 ， 
"i Word2 Vec , fasttext , Glove, ELMo, BERT, XLNET 等 ， 
一 方面 解决 了 高 维 向 量 空间 带 来 的 数据 稀疏 问题 , 另 
一 方面 可 以 利用 词 嵌入 从 异 构 的 文本 中 获取 包含 丰富 
语义 信息 的 特征 表示 ,为 术语 抽取 这 种 带 有 领域 性 的 


序列 标注 问题 ,注入 了 强劲 的 发 展 动 力 。 深 度 学 习 的 
优点 是 能 够 使 用 各 种 深度 神经 网 络 模型 或 算法 从 领域 
文本 中 自动 学 习 特 征 ,避免 了 繁重 上 且 耗 时 的 特征 工程 ， 
且 学 习 特 征 的 过 程 是 人 工 、 领 域 .语言 非 依 赖 性 的 ， 
而 可 移植 .可 重用 RE Je bg 。 

为 了 解决 现 有 机 器 学 习 方 法 中 对 特征 工程 的 过 度 
依赖 和 复杂 问题 泛 化 性 能 差 等 问题 ,近年 来 ,一些 研究 
开始 探索 基于 深度 神经 网 络 方法 的 术语 抽取 。R. 
Chalapathy 等 ”发 现 传 统 的 机 器 学 习 方法 严重 依赖 人 
工 特征 和 特定 领域 资源 ,提出 使 用 BLSTM-CRF 模型 从 
临床 数据 中 抽取 医疗 概念 ,取得 了 比 HMM, CRF 等 
ATE 算法 更 优 的 结果 。R，Wang 等 ”介绍 了 一 种 使 
用 两 个 深度 学 习 分 类 器 进行 术语 抽取 的 弱 监 督 自 举 方 
法 ,有 效 缓解 了 手工 特征 选择 和 标记 数据 缺乏 的 问题 。 

随 着 深度 学 习 的 不 断 发 展 , 研 究 者 们 提出 了 一 些 
优化 机 制 。 注 意 力 机 制 实质 是 模拟 人 脑 在 特定 时 刻 会 
将 注意 力 集中 在 特定 关键 事物 而 忽略 其 他 非 关 键 事物 
的 专注 特性 。 马 建 红 等 ”提出 了 基于 Attention 机 制 
的 BLSTM-CRF 的 领域 术语 抽取 模型 ,准确 率 达 到 了 
86% 。 迁 移 学 习 是 从 相关 领域 中 迁移 标注 数据 或 者 知 
识 结构 .完成 或 改进 目标 领域 或 任务 的 学 习 效果 。 刘 
字 飞 等 ”引入 深度 迁移 学 习 的 思想 ,运用 BiLSTM 模 
型 实现 跨 领域 迁移 ,有 效 识别 了 技术 术语 ,解决 了 专利 
文献 少 标注 的 问题 。 领 域 知识 对 于 领域 特定 语料库 中 
的 术语 抽取 至 关 重 要 ,很 难 从 有 限 的 语料库 中 获取 知 
识 。 利 用 从 诸如 维基 百科 、 百 度 百科 等 知识 库 中 得 出 
的 领域 事实 ,通过 远程 监督 来 学 习 术 语 特 征 , 可 以 实现 
比 现 有 方法 更 广 的 覆盖 范围 。 

当前 术语 抽取 领域 所 应 用 的 深度 学 习 方 法 是 在 结 
合 领 域 特点 的 基础 上 从 命名 实体 识别 研究 中 移植 过 来 
的 ,因此 同样 面临 着 缺乏 大 量规 范文 本 、 标 注 语 料 、 基 
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础 词 库 等 领域 资源 条 件 的 问题 。 从 取得 的 研究 结果 来 
看 ,抽取 精度 有 了 较 大 提升 ,但 尚未 达到 理想 峰值 。 在 
深度 学 习 技术 基础 上 ,如 何 提高 抽取 效率 以 及 更 有 效 
地 利用 有 限 标注 数据 是 术语 抽取 领域 值得 研究 的 方 
向 ,如 在 领域 语 料 上 利用 预 训练 模型 (BERT .XLNET) 
进行 微调 (fine-tune)。 
3.2 ”数据 集 和 评估 分 析 
3.2.1. 数据 集 分 析 

自动 术语 抽取 是 一 个 富有 成 果 的 研究 领域 ,但 在 
数据 集 和 评估 方面 仍然 面临 重大 障碍 ,需要 手动 标注 
术语 ,这 是 一 项 艰巨 的 任务 ,难度 很 大 。 术 语 和 通用 语 
言 之 间 还 缺乏 清晰 的 区 分 ,导致 标注 者 之 间 的 共识 较 
少 ,增加 了 标注 的 歧义 性 。 随 着 向 机 器 学 习 和 深度 学 
习 玉 法 的 不 断 发 展 , 对 带 标注 的 数据 集 的 需求 变 得 越 
来 越 紧迫 ,不仅 是 为 了 评估 ,还 因为 “将 机 器 学 习 或 深 


度 学 习 应 用 于 ATE 的 主要 问题 之 一 是 可 靠 的 训练 数 
据 的 可 用 性 ”。 

通过 对 论文 实验 部 分 的 阅读 和 总 结 ,数据 集 主要 
分 为 公开 数据 集 和 基于 特定 研究 的 数据 集 。 公 开 数 据 
集 是 能 够 公开 获取 的 带 标注 数据 集 , 具 有 广泛 适用 人 性 ， 
包括 GENIA .ACL RD-TEC FAO 等 , 表 4 展示 了 常用 数 
据 集 的 统计 信息 。 其 中 ,GENIA 是 评估 ATE 时 最 常用 
的 数据 集 , 用 于 生物 医学 文本 挖掘 的 语义 标注 数据 集 ; 
ACL 数据 集 是 专门 为 NLP 领域 中 的 ATE 评 佑 而 设计 
的 ,其 假设 是 :拥有 一 个 数据 集 ,让 NLP 的 研究 人 员 可 
以 自己 成 为 领域 专家 ,这 将 是 一 个 巨大 的 优势 。 除 了 
表 中 数据 集 外 ,还 有 一 些 较 小 的 公开 资源 ,如 TTCm 和 
TTCw”。TTCw 语料库 包含 103 篇 关于 风能 领域 的 全 
文 ,TTCm 包含 有 关 移 动 技术 领域 的 37 篇 全 文 。 


表 4 数据 集 摘要 统计 


笔者 发 现 公 开 数 据 集 以 英文 为 主 ,汉语 研究 主要 


gu 


以 研究 目的 为 导向 ,人 工 构建 领域 数据 集 。 黄 茵 等 ” 
将 茂 判 文书 作为 研究 对 象 , 从 * 中 国 裁判 文书 网 "中 抓 


NOBERI3C- B 61 515 份 ,经 过 数据 清洗 后 ,人 工 标注 了 
播 罪 名 刑罚 .法律 原则 法 律 概 念 及 法 律 条 文 5 种 
类 换 的 术语 。 为 了 抽取 新 能 源 汽车 领域 术语 , 马 建 红 
等 ”1 人工 标注 了 专利 文本 1 126 篇 ,并 在 CAT 创新 工 
具 中 得 到 验证 。 多 语 术语 抽取 研究 是 一 个 新 兴 领 域 ， 
R. A. Terryn 等 ”收集 了 3 种 语言 (英语 法语 和 荷兰 
语 ) 和 4 个 领域 (腐败 .盛装 舞步 心力 衰竭 和 风能 ) 的 
语 料 ,并 设计 了 标注 方案 。 基 于 特定 研究 的 数据 集 涉 
及 的 领域 范围 广 , 还 包括 金融 .军事 、 图 书 情报 .科技 文 


献 专利、 网 页 文本 等 。 
3.2.2 评价 分 析 


ATE 评价 的 传统 方法 是 与 人 工 标注 结果 进行 比 
较 , 并 计算 精度 (实际 的 候选 术语 个 数 ) 召回 率 ( 抽 取 
出 的 正确 术语 个 数 ) 和 Ff 值 (精度 和 召回 率 之 间 的 调 
和 平均 值 )。 如 黄 菌 等 ”利用 准确 率 P(Precision) A 
PIZ R ( Recall) 下 值 评价 了 法 律 术语 识别 的 效果 。 这 
三 个 指标 不 能 全 面 反 映 抽取 结果 的 好 坏 ,与 噪声 (错误 
提取 的 术语 ) 和 沉默 (未 提取 出 的 术语 ) 密切 相关 。 此 


数据 集 领域 文本 量 (篇 ) 单词 量 (个 ) 术语 量 (个 ) 术语 来 源 
GENIA 生物 医学 2 000 494 000 35 104 手动 标记 
ACL 计算 语言 学 10 085 41 202 000 21 543 手动 标记 
ACL 2.0 计算 语言 学 300 33 000 3 095 手动 标记 
FAO 农业 779 26 672 000 1 554 作者 的 关键 字 
Europarl 政治 9 672 63 279 000 15 094 Eurovoc 词 库 


外 , 受 试 者 工作 特征 曲线 (receiver operating characteris- 
tic curve, ROC) 也 是 一 种 评价 方法 ,但 在 术语 抽取 领域 
不 太 常 见 。 由 于 这 些 指标 仅 能 衡量 绩效 ,因此 一 些 研 
究 人 员 认 为 ,更 全 面 的 评价 协议 是 必要 的 。 早 在 1996 
年 ,M. C. L Homme 等 广泛 定义 了 5 项 预 评价 标 
准 ,以 补充 上 述 指 标 。 在 其 他 工作 中 ,V. A. Sauron 
提出 了 一 种 质量 模型 ,该 模型 不 仅 计算 精度 或 召回 率 ， 
还 可 测量 适用 性 可靠 性 可用性、 可 维护 性 和 可 移植 
性 。 同 样 只 是 使 用 PR , 赵 洪 等 25 探讨 了 训练 语 料 
规模 对 抽取 结果 的 影响 ,实验 中 计算 了 在 20% .40% 、 
60% 和 80% 训练 集 比 例 下 的 抽取 性 能 。D. Inkpen 
等 考虑 混合 多 种 评价 策略 ,并 设计 了 用 于 促进 ATE 
系统 比较 评价 的 工具 。 
3.3 ”应 用 分 析 

如 表 5 所 示 , 基 于 机 器 学 习 的 术语 抽取 应 用 包括 
知识 组 织 .自然 语言 处 理 、 情 报 分 析 以 及 其 他 。 在 图 情 
领域 的 应 用 主要 体现 在 叙 词 表 、 本 体 等 知识 组 织 系 统 
的 构建 科技 情报 分 析 、 专 利 术 语 抽取 等 内 容 , 以 支持 
情报 系统 的 建设 与 服务 。 术 语 抽 取 是 数据 和 知识 获取 
的 基本 任务 ,也 是 许多 复杂 自然 语言 处 理 任务 的 预 处 
理 步 又 ,如 信息 检索 、 机 器 翻译 .文本 挖掘 、 关 系 抽 取 
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等 。 其 他 应 用 指 依据 论文 研究 目标 而 进行 的 领域 术语 


值 ,探索 未 来 的 发 展 前 景 。 以 下 从 叙 词 表 的 维护 更 新 、 


抽取 任务 ,涉及 的 领域 主要 包括 金融 .军事 法律 、 医 | 本 体 构建 .自然 语言 处 理 以 及 情报 分 析 4 个 方面 详细 
学 .商业 农业 。 对 应 用 情况 进行 总 结 有 助 于 研究 人 员 介绍 术语 抽取 的 研究 情况 。 
了 解 该 领域 的 研究 现状 ,指明 研究 方向 ,挖掘 研究 价 
表 5 抽取 技术 的 应 用 领域 
主题 分 类 关键 词 
知识 组 织 领域 氢 词 表 .地质 学 词典 本 体 学 习 、 本 体 构建 .学术 资 源 本 体 ` 数 字 图 书馆 本 体 Mesh ,政务 本 体 
抽取 技术 应 自然 语言 领域 信息 检索 机 器 翻译 ,文本 挖掘 .问答 系统 .关系 抽取 ,文本 分 类 
情报 分 析 专利 术语 抽取 、 科 技 情 报 分 析 、 科 技 文献 .科技 政策 .学术 文献 ,信息 技术 
其 他 金融 ,军事 法律 .医学 .商业 ,农业 

3.3.1 叙 词 表 的 维护 更 新 3.3.3 自然 语言 处 理 


在 生物 医学 .计算 机 科学 .自然 科学 等 领域 ,新 术 


基于 机 器 学 习 的 术语 抽取 同样 可 以 应 用 于 自然 语 


语 会 随 着 学 科 中 新 技术 .新 知识 的 产生 而 出 现 ,为 了 促 
选 领域 叙 词 表 资 源 的 共享 利用 , 叙 词 表 的 维护 更 新 势 
TE. M. Ikeda 4&7" 从 扩展 多 种 氢 词 表 的 角度 出 
发 6 列 用 机 器 学 习 进行 候选 术语 的 抽取 ,然后 根据 语法 
停电 将 相应 领域 的 未 注册 术语 加 入 到 对 应 的 叙 词 表 。 
在 科学 计量 学 中 使 用 叙 词 表 和 分 类 法 来 获取 科学 和 技 
术 信 息 直 受 到 关注 ,T，Kawamura 等 为 了 及 时 了 
解 件 种 科学 技术 活动 的 最 新 趋势 ,提出 利用 Word2 Vec 
从 先进 技术 领域 的 文章 摘要 中 获取 领域 相关 的 新 
概念 和 术语 ,以 此 来 扩展 领域 氢 词 表 。 宋 培 彦 等 ” 研 
究 下 语义 网 环境 下 叙 词 表 的 构建 方式 ,提出 可 以 采用 
机 露 学 习 方 法 从 语料库 和 文献 资源 中 自动 抽取 术语 ， 
构 般 初始 术语 集 。 此 外 ,还 有 像 Mesh 主题 词 表 、Geo- 
Rej 地 球 科学 叙 词 表 等 ,在 大 数据 背景 下 ,为 了 提供 全 
面 秘 信 息 检索 服务 ,基于 机 器 学 习 的 术语 抽取 将 起 着 
十 他 重要 的 作用 。 
3.3.2 ”构建 领域 本 体 

领域 本 体 是 共享 概念 模型 的 明确 的 形式 化 的 规范 
说 明 ,用 公认 的 术语 集合 和 术语 之 间 的 关系 来 反映 该 
领域 内 的 知识 和 知识 结构 ,在 语义 信息 交互 .信息 描述 
的 规范 化 等 方面 起 着 重要 作用 。 术 语 是 领域 本 体 构建 
的 基本 元 素 , 术 语 抽取 是 本 体 学 习 中 最 基本 也 是 至 关 
重要 的 一 步 。 为 了 提高 题 本 构建 的 效率 、 降 低 本 体 构 
建 的 成 本 ,BOmelayenko ^' 较 早 地 利用 机 器 学 习 的 方 
法 进行 了 术语 提取 ,本 体 合并 、 更 新 以 及 实例 的 获取 。 
李 丽 双 "" 提 出 了 基于 条 件 随机 场 和 主动 学 习 相 结 合 
的 领域 术语 抽取 方法 ,实现 了 本 体 构建 过 程 中 一 定 程 
度 的 自动 化 ,为 制造 企业 知识 管理 的 建 模 提供 了 较 好 
的 方法 。 为 了 构建 领域 学 术 本 体 , 蒋 婷 “采用 层 装 条 
件 随机 场 与 C-value 和 规则 相 结合 的 方法 分 别 对 不 同 
术语 类 型 进行 抽取 。 


言 处 理 领 域 ,R，Gaizauskas 等 所 介绍 了 一 种 从 Web 源 
自动 提取 双语 术语 对 的 多 组 件 系统 BiTES ,首先 自动 
从 单 语 语 料 中 提取 术语 ,然后 再 从 可 比较 的 文档 或 平 
行 语 料 中 对 齐 提取 的 术语 。G.，Huang 等 ” 发 现 网 页 
上 的 括号 里 含有 大 量 的 术语 翻译 知识 ,为 了 提高 抽取 
的 召回 率 , 作 者 提出 了 基于 最 大 烂 的 术语 识别 系统 
TermExt ,并 将 抽取 出 的 术语 利用 监督 的 机 器 学 习 方 法 
进行 机 需 翻 译 ,实验 表明 , 相 比 baseline 抽取 召回 率 提 
高 了 11% 。 在 信息 检索 领域 ,NT. W. Khin 等 “ 提 
出 了 基于 Web 查询 分 类 算法 的 IR 系统 ,系统 包括 领 
域 术 语 提 取 、Web 查询 分 类 和 相关 查询 检索 ;一 体 化 医 
学 语言 系统 UMLS 集成 了 150 多 部 医学 主题 词 表 , 广 
泛 用 于 对 互联 网 文献 的 检索 和 挖掘 ;IEEE 推出 的 顶层 
本 体 SUMO 也 试图 将 包括 叙 词 表 在 内 的 知识 组 织 工具 
进行 融合 ,以 提供 更 加 全 面 的 知识 检索 服务 。 
3.3.4 情报 分 析 

在 大 数据 环境 下 ,通过 情报 分 析 进 行 科 技 信息 监 
测 和 知识 获取 变 得 越 来 越 重要 ,科技 术语 可 以 表征 科 
技 概念 ,表达 科技 数据 的 核心 内 容 , 是 科技 数据 情报 分 
析 的 重要 内 容 之 一 。 曾 文 等 “ 介绍 了 基于 深度 学 习 
算法 的 科技 术语 抽取 方法 ,并 在 科技 数据 集 上 做 出 实 
验 性 的 分 析 和 结论 ; 曾 文 .车 尧 等 ”以 科技 大 数据 为 
视角 和 分 析 对 象 ,提出 面向 科技 大 数据 情报 分 析 服 务 
的 方法 ,并 且 设 计 人 研发 了 融合 多 种 抽取 算法 的 中 文科 
技术 语 抽 取 方 法 ,实验 表明 该 方法 在 一 定 程度 能 够 辅 
助 情报 研究 人 员 进 行 数据 的 处 理 和 分 析 。 理 论 术语 是 
大 规模 文献 内 容 分 析 和 跨 学 科 知 识 转移 深度 揭示 的 基 
础 , 赵 洪 等 ”构建 了 面向 理论 术语 抽取 的 深度 学 习 模 
型 。 专 利文 献 分 析 能 够 判断 领域 技术 热点 、 预 测 技术 
发 展 趋势 帮助 研发 人 员 从 中 获得 启发 与 借鉴 ,其 中 专 
利文 献 术语 能 够 提供 结构 化 知识 ,是 专利 文献 分 析 的 
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印 科 达 ， 马 建 玲 . 机 器 学 习 在 术语 抽取 研究 中 的 文献 计量 分 析 [ J]]. 图 书 情报 工作 ,2020 ,64 (14) :94 - 103. 
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4 结语 


本 文采 用 文献 计量 分 析 法 和 内 容 分 析 法 ,在 相关 
主题 词 下 ,对 Web of Science .CNKI 和 维普 数据 库 中 与 
机 器 学 习 技术 方法 有 关 的 论文 进行 了 分 析 。 通 过 文献 
计量 对 数据 集 的 外 部 特征 进行 了 宏观 分 析 , 包 括 年 度 
趋势 和 核心 机 构 ,发 现 随 着 相关 领域 的 快速 发 展 术 语 
抽取 研究 还 处 于 上 升 期 ,可 以 通过 关注 “沈阳 航空 航天 
大 学 “南京 大 学 "等 核心 机 构 来 进行 学 术 追 踪 。 之 
后 ,笔者 重点 对 169 篇 中 英文 文献 从 抽取 技术 数据 集 
和 评价 以 及 应 用 3 个 方面 进行 了 主题 分 析 , 得 到 以 下 3 
点 结论 ; 

本 (1) 统计 机 器 学 习 方法 的 引入 使 术语 抽取 技术 取 
得 字 很 大 的 进步 ,但 模型 的 识别 性 能 很 大 程度 上 依赖 


^I 
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然 轩 一 个 有 挑战 性 的 研究 领域 。 大 数据 环境 下 ,机 器 
党 导 旋 至 深度 学 习 将 会 是 最 有 效 的 术语 抽取 方法 。 为 
开 直 一 步 提高 模型 的 精度 ,值得 考虑 改进 的 地 方 还 有 
德 济 ,如 采用 混合 方法 、 结 合 领域 知识 库 、 使 用 预 训练 
Bos. 

2*2) 自动 术语 抽取 的 数据 集 和 评估 方法 对 于 量化 
最 路 技术 的 绩效 至 关 重要 ,应 包括 文本 语料库 黄金 标 
MERDEER A. R. Terryn 557" 在 几 种 领域 和 语言 
中 得 供 了 一 些 标准 数据 集 和 标注 策略 。 在 3.3.2 节 中 
也 介绍 了 国内 外 的 一 些 数据 集 和 评价 方法 ,这 些 数据 
集 对 于 正确 评价 术语 抽取 模型 来 说 是 无 价 的 。 在 多 源 
异 构 的 数据 环境 下 ,数据 集 和 评估 方面 仍然 面临 重大 
障碍 ,术语 抽取 理论 体系 需要 完善 ,包括 语 料 选取 、 评 
价 指标 和 效果 评价 方法 等 。 

(3) 基 于 机 器 学 习 的 术语 抽取 技术 是 知识 系统 、 
自然 语言 处 理 ,情报 分 析 等 研究 领域 基础 且 重 要 的 工 
作 , 有 具有 较 高 的 实用 价值 。 应 用 不 限于 3.3 节 中 指出 
的 几 方面 ,更 多 不 同 领域 的 应 用 还 有 待 研究 人 员 进 一 
步 探索 。 事实 上 , 随 着 数据 的 海量 化 、 异 构 化 和 复杂 
化 ,机 器 学 习 和 深度 学 习 会 在 术语 抽取 中 起 着 越 来 越 
重要 的 作用 。 

本 文 仍 有 很 多 不 足 ,例如 ,不 能 保证 文献 收集 的 全 
面 性 和 准确 性 ,在 计量 分 析 中 存在 误差 ,主题 分 析 和 应 
用 领域 分 析 的 深度 不 够 。 研 究 希 望 尽 可 能 准确 地 反映 


基于 机 器 学 习 的 术语 抽取 研究 领域 的 现状 ,和 敬 请 广大 
专家 学 者 批评 指正 。 
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Abstract: | Purpose/significance | The purpose of this paper is to sort out and summarize the relevant content 


04.00169v1 


Ethe automatic term extraction research based on machine learning, and to provide a reference for related personnel 


the field. | Method/process | Firstly, this paper applied literature measurement to conduct a macro analysis of the 


02 


(Subject s annual trends and core institutions based on the analysis tools of CNKI and EndNote, then it carried out the 
subject analysis from 3 aspects; extraction of technical methods , data sets and evaluation, and application. | Result/ 
spnclusion ] In recent years, term extraction research has made great progress, and is the basic work in the fields of 
Knowledge systems, natural language processing, and information analysis. With the rapid development of natural 
fanguage processing, extraction technology has begun to develop in the direction of deep learning, but the basic theo- 
-etical system of term extraction still needs to be improved, such as evaluation indicators, corpus selection and effect 


evaluation methods. 
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